index.html Mockup I made for Max, based on her notes for CYCLE_J:
 ┌─┬─────┬─────────────────────────────┬───────────────────────┐                                                                      
 │ │GPT-J│                         . 0 │           CYCLE_J v0.1│                                                                      
 │ └┬────┘┌────                  \  o  │  Midwestern Simulation│                                                                      
 │  ├─────┤  expand ctx to 4k  \,'`.   │                       │                                                                      
 │  ▼     └────                /,.'`   │                 Maxine│                                                                      
 │┌──────────────┐               /     └───────────────────────┤                                                                      
 ││intermediate 1├────────────────────────────────────────────┐│                                                                      
 │└─┬────────────┘                                            ││                                                                      
 │  │   ┌──────                                               ││                                                                      
 │  │   │ maximize p(txt_paraphrased|"{DA}{txt}{DB}")         ││                                                                      
 │  │   │        + p(txt|"{DB}{txt_paraphrased}{DA}")         ││                                                                      
 │  │   │   where:                                            ││                                                                      
 │  ├───┤         DA, DB denote markers for domain A,B        ││                                                                      
 │  │   │         txt_paraphrased is a paraphrased txt by     ││                                                                      
 │  │   │            Mistral Instruct 7b 0.1 or Qwen2.5       ││                                                                      
 │  │   │            instruct                                 ││                                                                      
 │  ▼   └──────                                               ││                                                                      
 │┌───────────────┐  ┌───────────────┐                        ││                                                                      
 ││intermediate 2a│┌─┤intermediate─2b│───────────┬────────────┘│                                                                      
 │└─┬─────────────┘│ └───────────────┘           │             │                                                                      
 │  │              │ ┌───────────────────────────┴────────────┐│                                                                      
 │  │    merge     │ │ maximize p(txt_A|DA)                   ││                                                                      
 │  └──► models ◄──┘ │        + p(txt_B|DB)                   ││                                                                      
 │      linearly     │   where:                               ││                                                                      
 │         │  ,                DA, DB markers for domain A,B   │                                                                      
 │  ┌──────┘  O< ,   ,            txt_A, txt_B texts sampled   │                                                                      
 │  │                o<           from domains A, B            │                                                                      
 │  ▼             0<                                           │                                                                      
 │┌──────────────────────┐                                     │                                                                      
 ││    intermediate 3    │         O     O                     │                                                                      
 │└─┬────────────────────┘           o o         /\            │                                                                      
 │  │   ┌──────                        o       _/./            │                                                                      
 │  │   │  maximize rewards:             o  ,-'    `-:..-'/    │                                                                      
 │  │   │    1. Cycle Consistency          : o )      _  (     │                                                                      
 │  │   │       a. embedding similarity*   "`-....,--; `-.\    │                                                                      
 │  ├───┤       b. rouge                         `'            │                                                                      
 │  │   │    2. Discriminator*               *based on NeoBERT │                                                                      
 │  │   │       trained on real+gen samples                    │                                                                      
 │  │   │          during RL                                   │                                                                      
 │  │   └──────                                                │                                                                      
 │  ▼                                                          │                                                                      
 │ ┌───────┐ A model trained to translate between unpaired     │                                                                      
 │ │CYCLE-J│ domains, using model merging and policy gradients │                                                                      
 └─┴───────┴───────────────────────────────────────────────────┘